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Procede et systeme d' analyse de signaux vocaux pour la 
representation compacte de locuteurs. 



5 La presente invention concerne un proc6d6 et un dispositif 

d' analyse de signaux vocaux. 

L' analyse de signaux vocaux n6cessite notamment de 
pouvoir representer un locuteur. La representation d'un locuteur 
par un melange de gaussiennes ("Gaussian Mixture Model" ou 
10 GMM) est une representation efficace de l'identite acoustique ou 
vocale d'un locuteur. Selon cette technique, il s'agit de 
representer le locuteur, dans un espace acoustique de reference 
d'une dimension pr6d6termin6e, par une somme ponder6e d'un 
nombre predetermine de gaussiennes. 
15 Ce type de representation est precis lorsque l'on dispose 

d'un grand nombre de donn6es, et qu'il n'y a pas de contraintes 
physiques pour stocker les parametres du modele, ni pour ex6cuter 
des calculs sur ces nombreux parametres. 

Or, en pratique, pour representer un locuteur au sein de 
20 systemes informatiques, il arrive que le temps de parole d'un 
locuteur soit court, et que la taille de la m6moire necessaire a ces 
representations, ainsi que les temps de calculs sur ces parametres 
soient trop importants. 

II est done important de chercher a representer un locuteur 
25 de maniere a reduire drastiquement le nombre de parametres 
necessaires a sa representation tout en gardant des performances 
correctes. On entend par performance le taux d'erreurs de 
sequences vocales non reconnues comme appartenant ou non a un 
locuteur par rapport au nombre total de sequences vocales. 
30 Des solutions en ce sens ont 6t€ proposers, notamment 

dans le document "SPEAKER INDEXING IN LARGE AUDIO 
DATABASES USING ANCHOR MODELS" par D.E. Sturim, D.A. 
Reynolds, E. Singer and J.P. Campbell. En effet, les auteurs 
proposent de representer un locuteur, non plus de maniere absolue 
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dans un espace acoustique de reference, mais de maniSre relative 
par rapport h un ensemble predetermine de representations de 
locuteurs de reference appeies egalement modules d'ancrages, 
pour lesquels on dispose de modMes GMM-UBM (UBM pour 
5 "Universal Background Model"). On evalue la proximity entre un 
locuteur et les locuteurs de reference au moyen d'une distance 
euclidienne. Cela diminue 6norm6ment les charges de calcul, mais 
les performances sont encore limitees et insuffisantes. 

Au vu de ce qui precede, 1' invention a pour but d' analyser 

10 des signaux vocaux en repr6sentant les locuteurs par rapport k un 
ensemble predetermine de locuteurs de reference, avec un nombre 
de parametre r6duits diminuant les charges de calculs pour des 
application en temps reel, avec des performances acceptables, en 
comparaison d'une analyse utilisant une representation par le 

15 module GMM-UBM, 

On peut alors par exemple effectuer des indexations de 
documents audio de grandes bases de donn6es otl le locuteur est la 
cle d' indexation. 

Ainsi, selon un aspect de Tinvention, il est propos6 un 

20 proced£ d'analyse de signaux vocaux d'un locuteur (X), utilisant 
une density de probability repr6sentant les ressemblances entre 
une representation vocale du locuteur (X) dans un modele 
predetermine et un ensemble predetermine de representations 
vocales d'un nombre E de locuteurs de reference dans ledit 

25 module predetermine, et on analyse la densite de probabilite pour 
en deduire des informations portant sur les signaux vocaux. 

Cela permet de diminuer drastiquement le nombre de 
parametres utilises, et permet a des dispositifs mettant en ceuvre 
ce procede de pouvoir travailler en temps reel, en diminuant le 

30 temps de calcul, en diminuant la taille de la memoire necessaire. 

Dans un mode de mise en ceuvre prefere, on prend comme 
module predetermine un modele absolu (GMM), de dimension D, 
utilisant un melange de M gaussiennes pour lequel le locuteur (X) 
est represente par un ensemble de param&tres comprenant des 
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coefficients de ponderation (c^, i=l k M) du melange de 
gaussiennes dans ledit modele absolu (GMM), des vecteurs de 
moyenne (ji if i=l a M) de dimension D et des matrices de 
covariance i=l a M) de dimension DxD. 

Dans un mode de mise en ceuvre avantageux, on repr6sente 
la densite de probability des ressemblances entre la representation 
desdits signaux vocaux du locuteur (X) et V ensemble predetermine 
de representations vocales des locuteurs de reference par une 
distribution gaussienne de vecteur de moyenne (\i x ) de 

dimension E et de matrice de covariance de dimension ExE 

estim6s dans 1'espace des ressemblances & V ensemble 
predetermine des E locuteurs de reference. 

Dans un mode de mise en ceuvre prefere, Ton definit la 
ressemblance (v(jx\£ x )) du locuteur (X) par rapport aux E 
locuteurs de reference, locuteur (X) pour lequel on dispose de N x 
segments de signaux vocaux representes par N x vecteurs de 
Tespace des ressemblances par rapport & Fensemble predetermine 
des E locuteurs de reference, en fonction d'un vecteur de moyenne 
(jx x ) de dimension E et d'une matrice de covariance des 
ressemblances du locuteur (X) par rapport aux E locuteurs de 
reference. 

Dans un mode de mise en ceuvre avantageux, on introduit 
en outre des informations h priori dans les densites de probabilite 
des ressemblances par rapport aux E locuteurs de 

reference. 

Dans un mode de mise en ceuvre prefere, la matrice de 
covariance du locuteur (X) est independante dudit locuteur 
(± x = ±). 

Selon un autre aspect de V invention, il est propose un 
systSme d' analyse de signaux vocaux d'un locuteur (X), 
comprenant des bases de donnees dans lesquelles sont stockes des 
signaux vocaux d'un ensemble predetermine de E locuteurs de 
reference et leurs representations vocales associees dans un 



WO 2005/015547 



PCT/FR2003/002037 



4 



modMe predetermine, ainsi que des bases de donnees d' archives 
audio, caract6ris6 en ce qu'il comprend des moyens d' analyse des 
signaux vocaux utilisant une representation vectorielle des 
res semblances entre la representation vocale du locuteur et 
F ensemble predetermine de representations vocales de E locuteurs 
de reference. 

Dans un mode de realisation avantageux, les bases de 
donnees memorisent egalement F analyse des signaux vocaux 
effectuee par lesdits moyens d' analyse. 

L'invention peut s'appliquer k l'indexation de documents 
audio, toutefois d'autres applications peuvent egalement etre 
envisagees, telles que 1' identification acoustique d'un locuteur ou 
la verification de Fidentite d'un locuteur. 

D'autres buts, caracteristiques et avantages de l'invention 
apparaftront k la lecture de la description suivante, donnee k titre 
d'exemple non limitatif, et faite en reference k V unique dessin 
annexe illustrant une mise en application d'une utilisation du 
procede pour F indexation de documents audio. 

La figure represente une application du syst&me selon un 
aspect de Finvention pour l'indexation de bases de donnees audio. 
Bien entendu, Finvention s'applique egalement k V identification 
acoustique d'un locuteur ou la verification de Fidentite d'un 
locuteur, c'est-k-dire, de maniere generale, k la reconnaissance 
d' informations relatives au locuteur dans le signal acoustique. Le 
systdme comprend un moyen pour recevoir des donnees vocales 
d'un locuteur, par exemple un micro 1, relie par une connexion 2 
avec ou sans fil k des moyens d'enregistrement 3 d'une requete 
enoncee par un locuteur X et comprenant un ensemble de signaux 
vocaux. Les moyens d'enregistrement 3 sont relies par une 
connexion 4 k des moyens de stockage 5 et, par une connexion 6, 
k des moyens de traitement acoustique 7 de la requgte. Ces 
moyens de traitement acoustiques transforment les signaux vocaux 
du locuteur X en une representation dans un espace acoustique de 
dimension D par un module GMM de representation du locuteur X. 
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Cette representation est definie par une somme pond6r6e de M 
gaussiennes selon les equations : 

M 

p(xlX) = 2a i b i (x) (1) 



i=l 



bi(x) = {2%r*$.\ v2 x exp [~i t(x " ^ Efl (x " (2) 



M 



dans lesquelles : 

5 D est la dimension de Fespace acoustique du modele GMM 
absolu; 

x est un vecteur acoustique de dimension D, ie vecteur des 

coefficients cepstraux d'une sequence de signal vocal du locuteur. 

X dans le module GMM absolu ; 
10 M designe le nombre de gaussiennes du modele GMM absolu, 

g6neralement puissance de 2 comprise entre 16 et 1024 ; 

b t (x) designe, pour i=l a D, densit6s gaussiennes, param6trees par 

un vecteur de moyenne \i t de dimension D et une matrice de 

covariance Xi de dimension DxD; et 
15 (Xi designe, pour i=l k D representent les coefficients de 

ponderation du melange de gaussiennes dans le module GMM 

absolu. 

Les moyens de traitement acoustique 7 de la requSte sont 
relics par une connexion 8 k des moyens d' analyse 9, Ces moyens 

20 d' analyse 9 sont aptes k representer un locuteur par un vecteur de 
density de probability repr6sentant les ressemblances entre la 
representation vocale dudit locuteur dans le module GMM choisi 
et des representations vocales de E locuteurs de reference dans le 
module GMM choisi. Les moyens d' analyse 9 sont en outre aptes 

25 k effectuer des tests de verification et/ou d' identification d'un 
locuteur. 
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Pour r6aliser ces tests, les moyens d' analyse procedent a 
1' elaboration du vecteur de densit6s de probabilit6s, c'est-a-dire 
des ressemblances entre le locuteur et les locuteurs de reference. 

II s'agit de d6crire une representation pertinente d'un seul 
segment x du signal du locuteur X au moyen des equations 
suivantes : 



10 



15 



20 



[p(*%) ; 



A x ^P^X |^UBM Jj 

. . M M 

p(x|X) = 2a k b k (x) oil £a k =l 



b k (x) = 



D/2l~ |l/2 



(4) 

(5) 

(6) 
(7) 



dans lesquelles 



w x est un vecteur de l'espace des ressemblances k V ensemble 
predetermine des E locuteurs de reference repr6sentant le segment 
x dans cet espace de representation ; 

p(x x |A,j) est une density de probability ou probability normalisee 

par un modele universel, representant la ressemblance de la 

representation acoustique x x d'un segment de signal vocal d'un 
locuteur X, sachant un locuteur de reference X } ; 

T x est le nombre de trames ou de vecteurs acoustiques du segment 
de parole x ; 

p(x x |A,j) est une probability repr6sentant la ressemblance de la 

representation acoustique x x d'un segment de signal vocal d'un 
locuteur X, sachant un locuteur de reference X i ; 
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P^I^ubm) est une probabilite repr6sentant la ressemblance de la 

representation acoustique x x d'un segment de signal vocal d'un 
locuteur X dans le modele du monde UBM; 

M est le nombre de gaussiennes du modele GMM relatif, 
5 g6neralement puissance de 2 comprise entre 16 et 1024 ; 

D est la dimension de l'espace acoustique du modele GMM 
absolu; 

x x est un vecteur acoustique de dimension D, ie vecteur des 
coefficients cepstraux d'une sequence de signal vocal du locuteur 
10 X dans le modele GMM absolu; 

b k (x) represente, pour k=l a D, des densit6s gaussiennes, 
param6tr6es par un vecteur de moyenne p. k de dimension D et une 
matrice de covariance 2 fc de dimension DxD ; 

a fc represente, pour k=l k D, les coefficients de ponderation du 
15 melange de gaussiennes dans le modele GMM absolu ; 

A partir des representations Wj des segments de parole Xj 
(j=l,..,N^) du locuteur X, on represente le locuteur X par la 
distribution gaussienne \|/ de parametres \i x et S x definis paries 
relations suivantes: 

dans lesquelles u| represente des composantes du vecteur de 
moyenne a* de dimension E des ressemblances \|f(n,\z x ) du 
locuteur X par rapport aux E locuteurs de reference, et s£, 
represente des composantes de la matrice de covariance S x de 
25 dimension ExE des ressembles \|f(n\s x ) du locuteur X par rapport 
aux E locuteurs de reference. 

Les moyens d' analyse 9 sont relief par une connexion 10 a 
des moyens d'apprentissage 11 permettant de calculer les 
representations vocales, sous forme de vecteurs de dimension D, 
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des E locuteurs de reference dans le module GMM choisi. Les 
moyens d'apprentissage 11 sont relies par une connexion 12 k une 
base de donnees 13 comprenant des signaux vocaux d'un ensemble 
predetermine de locuteurs et leurs representations vocales 
5 associees dans le modMe GMM de reference. Cette base de 
donnees peut egalement stocker le r6sultat de V analyse de signaux 
vocaux de locuteurs initiaux excepte lesdits E locuteurs de 
reference. La base de donnees 13 est reli6e par la connexion 14 
aux moyens d' analyse 9 et par une connexion 15 aux moyens de 

10 traitement acoustique 7. 

Le syst&me comprend en outre une base de donnees 16 
relive par une connexion 17 aux moyens de traitement acoustique 
7, et par une connexion 18 aux moyens d' analyse 9. La base de 
donnees 16 comprend des archives audio sous formes d' articles 

15 vocaux, ainsi que les representations vocales associees dans le 
module GMM choisi. La base de donnees 16 est egalement apte k 
stocker les representations associees des articles audio calcul6es 
par les moyens d' analyse 9. Les moyens d'apprentissage 11 sont 
en outre relies par une connexion 19 aux moyens de traitement 

20 acoustique 7. 

On va maintenant decrire un exemple de fonctionnement de 
ce syst&me pouvant fonctionner en temps reel car le nombre de 
param&tres utilises est nettement reduit par rapport au module 
GMM, et car beaucoup d'etapes peuvent Stre effectuees hors- 

25 ligne. 

Le module d'apprentissage 11 va determiner les 
representations dans le module GMM de reference des E locuteurs 
de reference au moyen des signaux vocaux de ces E locuteurs de 
reference stockes dans la base de donnees 13, et des moyens de 
30 traitement acoustique 7. Cette determination s'effectue selon les 
relations (1) k (3) mentionnees ci-dessus. Cet ensemble de E 
locuteurs de reference va representer le nouvel espace de 
representation acoustique. Ces representations des E locuteurs de 
reference dans le module GMM sont stockees en memoire, par 
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exemple dans la base de donnees 13. Tout cela peut Stre effectue 
hors-ligne. 

Lorsque Ton regoit des donnees vocales d'un locuteur X, 
par exemple par le micro 1, celles-ci sont transmises par la 
connexion 2 aux moyens d'enregistrement 3 aptes k effectuer le 
stockage de ces donnees dans les moyens de stockage 5 k l'aide de 
la connexion 4. Les moyens d'enregistrement 3 transmettent cet 
enregistrement aux moyens de traitement acoustique 7 par la 
connexion 6. Les moyens de traitement acoustique 7 calculent une 
representation vocale du locuteur dans le module GMM 
predetermine comme expose pr6c6demment en reference aux 
relations (1) k (3) ci-dessus. 

En outre, les moyens de traitement acoustique 7 ont 
calculi, par exemple hors-ligne, les representations vocales d'un 
ensemble de S locuteurs de test et d'un ensemble de T locuteurs 
dans le modele GMM predetermine. Ces ensembles sont distincts. 
Ces representations sont stock6es dans la base.de donnees 13. Les 
moyens d' analyse 9 calculent, par exemple hors-ligne, une 
representation vocale des S locuteurs et des T locuteurs par 
rapport aux E locuteurs de reference. Cette representation est une 
representation vectorielle par rapport k ces E locuteurs de 
reference, comme decrit precedemment. Les moyens d' analyse 9 
effectuent egalement, par exemple hors-ligne, une representation 
vocale des S locuteurs et des T locuteurs par rapport aux E 
locuteurs de reference, et une representation vocale des articles 
des locuteurs de la base audio. Cette representation est une 
representation vectorielle par rapport k ces E locuteurs de 
reference. 

Les moyens de traitement 7 transmettent la representation 
vocale du locuteur X dans le modele GMM predetermine aux 
moyens d' analyse 9, qui calculent une representation vocale du 
locuteur X. Cette representation est une representation par densite 
de probabilite des ressemblances aux E locuteurs de reference. 
Elle est calcuiee en introduisant de reformation k priori au 
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moyen des representations vocales de T locuteurs. En effet, 
Futilisation de cette information k priori permet de garder une 
estimation fiable, m6me lorsque le nombre de segments de paroles 
disponibles du locuteur X est faible. On introduit de F information 
5 k priori au moyen des Equations suivantes : 

•nx. agt±ag (10 ) 
w = ( w^- 1 . . . w^- 1 . . . ^r- r • • . w^ T - T ) a i) 

dans lesquelles : 

\i x : vecteur de moyenne de dimension E des ressemblances 

du locuteur X par rapport aux E locuteurs de 

10 reference ; 

N x : nombre de segments de signaux vocaux du locuteur X 

repr^sentes par N x vecteurs de Fespace des ressemblances k 
F ensemble predetermine des E locuteurs de reference ; 
W : matrice de toutes les donn6es initiales d'un ensemble de T 
15 locuteurs loc_i, pour i=l k T, dont les colonnes sont des 

vecteurs de dimension E reprSsentant un segment de signal 
vocal represents par un vecteur de Fespace des ressemblances 
k F ensemble predetermine des E locuteurs de reference, 
chaque locuteur loc_i ayant Nj segments vocaux, caracterise 
20 par son vecteur de moyennes ii Q de dimension E, et par sa 

matrice de covariance E 0 de dimension ExE ; 
jl* : vecteur de moyenne de dimension E des ressemblances 

du locuteur X par rapport aux E locuteurs de 

reference, avec introduction d' informations k priori; et 
25 E x : matrice de covariance de dimension ExE des ressemblances 

y(p,\s x ) du locuteur X par rapport aux E locuteurs de 

reference avec introduction d' informations k priori. 

On peut prendre de surcroit une unique matrice de 
covariance pour chaque locuteur, ce qui permet d'orthogonaliser 
30 ladite matrice hors-ligne, et les calculs de densites de probabilites 
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seront alors effectues avec des matrices de co variance diagonales. 
Dans ce cas, cette unique matrice de covariance est definie selon 
les relations : 

" T 

*ir=^-£ EK - w -)Kj - w i-s) a 2 ) 

^0 s=ljel, 

W is-^-E W ij (13) 

iN T j€l 8 

5 dans lesquelles 

W est une matrice de toutes les donn6es initiales d'un ensemble 
de T locuteurs loc_i, pour i=l h T, dont les colonnes sont des 
vecteurs de dimension E repr6sentant un segment de signal vocal 
represents par un vecteur de Fespace des ressemblances k 

10 F ensemble predetermine des E locuteurs de reference, chaque 
locuteur loc_i ayant Nj segments vocaux, caract6rise par son 
vecteur de moyennes jx 0 de dimension E, et par sa matrice de 
covariance S 0 de dimension ExE. 

Ensuite les moyens d' analyse 9 vont comparer les 

15 representations vocales de la requ§te et des articles de la base 
articles de la base par des tests en identification et/ou verification 
du locuteurs, Le test en identification de locuteur consiste k 
6valuer une mesure de vraisemblance entre le vecteur du segment 
de test w x et T ensemble des representations des articles de la base 

20 audio. Le locuteur identifie correspond k celui qui donne un score 
de vraisemblance maximal, soit X = aign^xp(w x |ji x ,S x J (14) parmi 

Tensemble des S locuteurs, 

Le test en verification de locuteur consiste k calculer un 
score de vraisemblance entre le vecteur du segment de test w x et 
25 F ensemble des representations des articles de la base audio 
normalise par son score de vraisemblance avec la representation 
de Finformation k priori. Le segment est authentifie si le score 
exc&de un seuil donne predetermine, ledit score etant donne par la 
relation suivante: 
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score = -) — — ( (15) 

Chaque fois que le locuteur X est reconnu dans un article 
de la base, on indexe cet article au moyen d'une information 
permettant de savoir que le locuteur X parle dans cet article 
audio. 

On peut 6galement appliquer cette invention a d'autres 
utilisations, comme la reconnaissance ou F identification d'un 
locuteur. 

Cette representation compacte d'un locuteur permet de 
rSduire de fagon drastique le coflt de calcul, car il y a beaucoup 
moins d' operation 616mentaires au vu de la reduction drastique du 
nombre de param&tres necessaires h. la representation d'un 
locuteur. 

15 Par exemple, pour une requgte de 4 secondes de paroles 

d'un locuteur, c'est-k-dire 250 trames, pour un module GMM de 
dimension 27, k 16 gaussiennes le nombre d'op6rations 
61ementaires est r6duit d'un facteur 540, ce qui r£duit 6norm6ment 
le temps calcul. En outre, la taille de memoire utilis£e pour 

20 stocker les representations des locuteurs est nettement r6duite. 

L' invention permet done d' analyser des signaux vocaux 
d'un locuteur en reduisant de maniere drastique le temps de calcul 
et la taille m6moire de stockage des representations vocales des 
locuteurs. 
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REVINDICATIONS 



1. Procede d' analyse de signaux vocaux d'un locuteur 
(X), caracterise en ce que Ton utilise une density de probability 

5 repr6sentant les ressemblances entre une representation vocale du 
locuteur (X) dans un module predetermine et un ensemble 
predetermine de representations vocales d'un nombre E de 
locuteurs de reference dans ledit modele predetermine, et on 
analyse la density de probability pour en deduire des informations 
10 sur les signaux vocaux, 

2. Procede selon la revendication 1, caracterise en ce 
que Ton prend comme module predetermine un module absolu 
(GMM), de dimension D, utilisant un melange de M gaussiennes 
pour lequel le locuteur (X) est represente par un ensemble de 

15 parametres comprenant des coefficients de ponderation (oc i5 i=l k 
M) du melange de gaussiennes dans ledit modfele absolu (GMM), 
des vecteurs de moyenne i=l k M) de dimension D et des 
matrices de covariance i=l k M) de dimension DxD, 

3. Procede selon la revendication 2, caracterise en ce 
20 que Ton represente la density de probabilite des ressemblances 

entre la representation desdits signaux vocaux du locuteur (X) et 
Fensemble predetermine de representations vocales des locuteurs 
de reference par une distribution gaussienne de vecteur 

de moyenne de dimension E et de matrice de covariance (£ x ) 
25 de dimension ExE estimes dans Tespace des ressemblances k 
V ensemble predetermine des E locuteurs de reference. 

4. Procede selon la revendication 3, caracterise en ce 
que Ton definit la ressemblance (\\f(\i x ,£*)) du locuteur (A) par 

rapport aux E locuteurs de reference, locuteur (X) pour lequel on 
30 dispose de N x segments de signaux vocaux representes par N x 
vecteurs de Tespace des ressemblances par rapport k V ensemble 
predetermine des E locuteurs de reference, en fonction d'un 
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vecteur de moyenne de dimension E et d'une matrice de 

covariance (E*) des ressemblances du locuteur (A,) par rapport aux 
E locuteurs de reference. 

5. Procede selon la revendication 4, caract6ris6 en ce 
5 que Ton introduit en outre des informations k priori dans les 

densites de probabilit6 des ressemblances (\|/(p,\z x )) par rapport 

aux E locuteurs de r6f6rence. 

6. Proc6d6 selon la revendication 5, caract6ris6 en ce 
que la matrice de covariance du locuteur (k) est ind6pendante 

10 dudit locuteur (Z* = E). 

7. Systfeme d' analyse de signaux vocaux d'un locuteur 
(X), comprenant des bases de donnSes dans lesquelles sont stockes 
des signaux vocaux d'un ensemble predetermine de locuteurs et 
leurs representations vocales associees dans un modele 

15 predetermine par m61ange de gaussiennes, ainsi que des bases de 
donn^es d' archives audio, caracteris6 en ce qu'il comprend des 
moyens d' analyse des signaux vocaux utilisant une representation 
vectorielle des ressemblances entre la representation vocale du 
locuteur (k) et 1' ensemble predetermine de representations vocales 

20 de E locuteurs de reference. 

8. Systeme selon la revendication 7, caract6ris6 en ce 
que les bases de donn6es m^morisent egalement 1' analyse des 
signaux vocaux effectu6e par lesdits moyens d' analyse. 

9. Utilisation d'un proc6de selon Tune quelconque 
25 des revendications 1 & 6, pour une indexation de documents audio. 

10. Utilisation d'un procede selon Tune quelconque 
des revendications 1 h. 6, pour une identification d'un locuteur. 

11. Utilisation d'un procede selon l'une quelconque 
des revendications 1 k 6, pour une verification d'un locuteur. 
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